This paper proposes Distributed Model Predictive Covariance Steering (DMPCS), a novel method for safe multi-robot control under uncertainty. The scope of our approach is to blend covariance steering theory, distributed optimization and model predictive control (MPC) into a single methodology that is safe, scalable and decentralized. Initially, we pose a problem formulation that uses the Wasserstein distance to steer the state distributions of a multi-robot team to desired targets, and probabilistic constraints to ensure safety. We then transform this problem into a finite-dimensional optimization one by utilizing a disturbance feedback policy parametrization for covariance steering and a tractable approximation of the safety constraints. To solve the latter problem, we derive a decentralized consensus-based algorithm using the Alternating Direction Method of Multipliers (ADMM). This method is then extended to a receding horizon form, which yields the proposed DMPCS algorithm. Simulation experiments on large-scale problems with up to hundreds of robots successfully demonstrate the effectiveness and scalability of DMPCS. Its superior capability in achieving safety is also highlighted through a comparison against a standard stochastic MPC approach. A video with all simulation experiments is available in https://youtu.be/Hks-0BRozxA.
translated by 谷歌翻译
This paper proposes embedded Gaussian Process Barrier States (GP-BaS), a methodology to safely control unmodeled dynamics of nonlinear system using Bayesian learning. Gaussian Processes (GPs) are used to model the dynamics of the safety-critical system, which is subsequently used in the GP-BaS model. We derive the barrier state dynamics utilizing the GP posterior, which is used to construct a safety embedded Gaussian process dynamical model (GPDM). We show that the safety-critical system can be controlled to remain inside the safe region as long as we can design a controller that renders the BaS-GPDM's trajectories bounded (or asymptotically stable). The proposed approach overcomes various limitations in early attempts at combining GPs with barrier functions due to the abstention of restrictive assumptions such as linearity of the system with respect to control, relative degree of the constraints and number or nature of constraints. This work is implemented on various examples for trajectory optimization and control including optimal stabilization of unstable linear system and safe trajectory optimization of a Dubins vehicle navigating through an obstacle course and on a quadrotor in an obstacle avoidance task using GP differentiable dynamic programming (GP-DDP). The proposed framework is capable of maintaining safe optimization and control of unmodeled dynamics and is purely data driven.
translated by 谷歌翻译
平均场游戏(MFG)是建模单个代理人与大量人群随机相互作用的集体行为的关键数学框架。在这项工作中,我们旨在解决一个具有挑战性的MFG类别,在该类别中,这些相互作用的偏好的不同性能可能无法提供给求解器,并敦促人群准确地融合到某些期望的分布中。尽管出于实际目的,这些设置动机良好,但足以使大多数(深)数值求解器瘫痪。然而,我们证明了schr \“作为熵调制的最佳运输模型的奥德桥可以推广到接受平均场结构,因此解决了这些MFG。有趣的是,这导致了一个与时间差异学习相似的结构的计算框架。因此,它为深厚的强化学习开辟了新颖的算法联系,我们利用了促进实践培训。我们表明我们的目标功能提供了必要和足够的功能平均场问题的条件。我们的方法被称为深广泛的Schr \“ Odinger Bridge(DEEPGSB),不仅在解决经典人群导航MFG方面优于先前的方法,而且还能够解决1000维的意见去极化,设置一个新的新观点高维MFG的最先进的数值求解器。我们的代码将在https://github.com/ghliu/deepgsb上提供。
translated by 谷歌翻译
在这项工作中,我们提出了一种新型的安全且可扩展的分散解决方案,以在存在随机干扰的情况下进行多代理控制。使用随机控制屏障功能在数学上编码安全性,并通过求解二次程序来计算安全控制。通过增强每个代理的优化变量,复制变量,为其邻居增强,可以实现权力下放。这使我们能够将集中式多代理优化问题解脱出来。但是,为了确保安全,邻近的代理商必须就“我们俩安全的安全”达成共识,这产生了共识。为了实现安全共识解决方案,我们结合了一种基于ADMM的方法。具体而言,我们提出了一个合并的CADMM-OSQP隐式神经网络层,该网络层解决了局部二次程序的迷你批次以及总体共识问题,作为单个优化问题。该层在每个时间步骤中都嵌入了Deep FBSDES网络体系结构中,以促进端到端可区分,安全和分散的随机最佳控制。在模拟中的几个具有挑战性的多机器人任务中,证明了所提出的方法的功效。通过对避免碰撞限制指定的安全要求强加要求,可以在整个培训过程中确保所有代理的安全操作。与集中式方法相比,我们还可以在计算和内存节省方面表现出卓越的可伸缩性。
translated by 谷歌翻译
我们提出了一种基于差分动态编程框架的算法,以处理轨迹优化问题,其中地平线在线确定而不是修复先验。该算法表现出直线,二次,时间不变问题的精确一步收敛,并且足够快,以便实时非线性模型预测控制。我们在离散时间案例中显示了非线性算法的派生,并将该算法应用于各种非线性问题。最后,我们展示了与标准MPC控制器相比的最佳地平线模型预测控制方案在平面机器人的障碍避免问题上的功效。
translated by 谷歌翻译
Schr \“ Odinger Bridge(SB)是一个熵调控的最佳运输问题,与基于评分的生成模型(SGM)相比,在深层生成模型中,人们对其数学灵活性受到了越来越多的关注。但是,是否尚不清楚优化原理是否仍然不清楚SB的涉及深层生成模型的现代培训,这些模型通常依赖于构建对数类似目标的目标。这提出了有关SB模型作为生成应用的原则替代方案的问题。在这项工作中,我们提供了一个新颖的计算框架,用于基于前向后的随机微分方程理论的SB模型的似然训练 - 随机最佳控制中出现了一种数学方法论,将SB的最佳条件转换为一组SDE。至关重要的是,这些SDE可用于构建SB的SB目标目标,以构建SB的可能性目标。令人惊讶的是,这将SGM的特殊情况概括为特殊情况。这导致了新的Opmimi Zation原理继承了相同的SB最优性,但并没有失去现代生成训练技术的应用,我们表明所得的训练算法在生成MNIST,CEELBA和CIFAR10的现实图像方面取得了可比的结果。我们的代码可在https://github.com/ghliu/sb-fbsde上找到。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的差异动态编程算法的最大熵制剂,并使用单向和多峰值函数参数化导出两个变体。通过将具有特定近似的成本函数的最大熵贝尔曼方程组合,我们能够获得差分动态编程的新配方,其能够通过多模级政策探索从局部最小值逃脱。为了展示所提出的算法的功效,我们提供了使用多个当地最小值的成本函数表示的四种任务的实验结果,并将它们与Vanilla差分动态规划进行比较。此外,我们讨论了与以前的工作的联系在线性可溶性随机控制框架及其与合成性有关的延伸。
translated by 谷歌翻译
我们提出了一种新颖的二阶优化框架,用于训练新兴的深度连续时间模型,特别是神经常规方程(神经杂物杂物)。由于他们的训练已经涉及昂贵的梯度计算来通过求解向后ode,因此导出有效的二阶方法变得高度不变。然而,灵感来自最近的最佳控制(OC)对训练深网络的解释,我们表明,可以采用称为差分编程的特定连续时间oC方法,以获得同一O(1 )内存成本。我们进一步探索了二阶衍生品的低级别表示,并表明它导致借助基于Kronecker的分子化的有效的预处理更新。由此产生的方法 - 命名的snopt - 收敛于壁钟时间中的一阶基线的速度要快得多,并且改进仍然在各种应用中保持一致,例如,图像分类,生成流量和时间序列预测。我们的框架还实现了直接的架构优化,例如神经杂物的集成时间,具有二阶反馈策略,加强了OC视角作为深度学习中优化的原则性工具。我们的代码可在https://github.com/ghliu/snopt上获得。
translated by 谷歌翻译
在未知和非结构化环境中自动机器人勘探和导航中的主要挑战之一是确定机器人可以或不能安全地移动的地方。这种确定的重要难度源来自随机性和不确定性,来自定位误差,传感器稀疏性和噪声,难以模拟机器人地面相互作用以及对车辆运动的干扰。该问题的经典方法取决于周围地形的几何分析,这可能容易建模错误,并且在计算上可能很昂贵。此外,建模不确定的遍历性成本的分布是一项艰巨的任务,这与上述各种错误来源相混合。在这项工作中,我们针对这个问题采用了原则性的学习方法。我们介绍了一种神经网络体系结构,以鲁棒性学习遍历成本的分布。因为我们是通过保留机器人的寿命来激发的,所以我们从学习尾风的角度(即有条件的价值风险(CVAR))来解决这个学习问题。我们表明,这种方法可靠地了解到预期的尾巴风险鉴于0到1之间的所需概率风险阈值,从而产生了遍及性的成本量,这对离群值更加健壮,更准确地捕获了尾巴风险,并且在与盆地相比时,尾巴风险更高,并且在计算上更有效。我们验证了我们在数据收集的数据上验证我们的方法,该机器人在挑战性的,非结构化的环境中导航,包括废弃的地铁,石灰石洞穴和熔岩管洞穴。
translated by 谷歌翻译
In this paper, we present an adjustable-equilibrium parallel elastic actuator (AE-PEA). The actuator consists of a motor, an equilibrium adjusting mechanism, and a spring arranged into a cylindrical geometry, similar to a motor-gearbox assembly. The novel component of the actuator is the equilibrium adjusting mechanism which (i) does not require external energy to maintain the equilibrium position of the actuator even if the spring is deformed and (ii) enables equilibrium position control with low energy cost by rotating the spring while keeping it undeformed. Adjustable equilibrium parallel elastic actuators resolve the main limitation of parallel elastic actuators (PEAs) by enabling energy-efficient operation at different equilibrium positions, instead of being limited to energy-efficient operation at a single equilibrium position. We foresee the use of AE-PEAs in industrial robots, mobile robots, exoskeletons, and prostheses, where efficient oscillatory motion and gravity compensation at different positions are required.
translated by 谷歌翻译